%	\chapter{参数估计}
	数理统计学使用概率论的方法，研究怎样收集(通过试验和观察)带有随机误差的数据，并在设定的模型(称为统计模型)之下，对这种数据进行分析(称为统计分析)，以对所研究的问题进行推断(称为统计推断)。
	
	\section{数理统计概念}
	\begin{definition}[总体]
		总体是指与所研究的问题有关的对象的全体所构成的集合。
	\end{definition}
	比如说，某校全体学生可构成总体，单个学生则构成个体。又比如说，对一个样品长度进行多次测量，全体可能的测量结果是总体，而单次测量结果是个体。
	
	\begin{definition}[样本]
		样本是按一定的规定从总体中抽取的一部分个体。所谓一定的规定，指的是总体中的每个个体具有同等被抽出的机会，以及在这个基础上设立的某种附加条件。将每个$X_i$称作一个样本，而称$X_1,\cdots,X_n$全体为一组样本。简单随机抽样要求每个样本$X_i$独立，且与总体$X$同分布。
	\end{definition}
	
	比如说，样本表现为若干个数据$X_1,\cdots,X_n$，$n$是样本容量。在样本容量较大而总体较小时，有放回抽样和无放回的抽样具有重要区别。在检查废品时，有放回抽样的废品数目服从二项分布，而无放回抽样的废品数目服从超几何分布。
	
	\begin{definition}[统计量]
		完全由样本决定的量称为统计量。
	\end{definition}
	比如说
	\begin{definition}[样本均值]
		设样本$X_1,\cdots,X_n$，则样本均值为
		\begin{equation}
		\bar{X}=\frac{1}{n}\sum_{i=1}^n X_i
		\end{equation}
	\end{definition}

当样本量够大时，无论总体分布是什么，样本均值服从正态分布。
\begin{theorem}[样本均值分布]
	设样本$X_1,\cdots,X_n$，已知总体的分布的均值为$\mu$，方差为$\sigma^2$，则当样本量$n$充分大时，样本均值$\bar{X}$近似服从正态分布，其均值仍为$\mu$，方差为$\sigma^2/n$，也就是
	\begin{equation}
	\bar{X}\sim N\left(\mu,\frac{\sigma^2}{n}\right)
	\end{equation}
\end{theorem}
\begin{proof}
	根据Lindeberg-L\'{e}vy中心极限定理，有
	\begin{equation}
	\frac{X_1+\cdots+X_n-n\mu}{\sqrt{n\sigma^2}}\stackrel{d}{\to}N(0,1)
	\end{equation}
	从而
	\begin{equation}
	X_1+\cdots+X_n\sim N(n\mu,n\sigma^2)
	\end{equation}
	即
	\begin{equation}
	\bar{X}\sim N\left(\mu,\frac{\sigma^2}{n}\right)
	\end{equation}\qed
\end{proof}

	\begin{definition}[样本方差]
		设样本$X_1,\cdots,X_n$，则样本方差为
		\begin{equation}
		S^2=\frac{1}{n-1}\sum_{i=1}^n (X_i-\bar{X})^2
		\end{equation}
	\end{definition}
	
	\begin{definition}[样本矩]
		设样本$X_1,\cdots,X_n$，则$k$阶样本原点矩是
		\begin{equation}
		a_k=\frac{1}{n}\sum_{i=1}^n X_i^k
		\end{equation}
		$k$阶样本中心矩
		\begin{equation}
		m_k=\frac{1}{n}\sum_{i=1}^n (X_i-\bar{X})^k
		\end{equation}
	\end{definition}
	注意二阶样本中心矩$m_2$与样本方差$S^2$之间差了一个系数。样本方差采用$n-1$作为分母的原因是只有这样才是$VarX$的无偏估计(见下一节)。
	
	

	\begin{definition}[次序统计量]
		设$X_1,\cdots,X_n$是取自总体$X$的样本，$X_{(i)}$被称为该样本的第$i$个次序统计量，它是样本$X_1,\cdots,X_n$的满足如下条件的函数：每当样本得到一组观察值$x_1,x_2,\cdots,x_n$时，将它们从小到大排列为
		\begin{equation}
		x_{(1)}\leq x_{(2)}\leq\cdots\leq x_{(n)}
		\end{equation}
		第$i$个值$x_{(i)}$就是$X_{(i)}$的观测值，称$X_{(1)},\cdots,X_{(n)}$为该样本的次序统计量，$X_{(1)}$称为该样本的最小次序统计量，$X_{(n)}$称为该样本的最大次序统计量。
	\end{definition}

	\begin{theorem}[次序统计量分布]
		设总体$X$的分布为$F(x)$，概率密度为$f(x)$，从中获得样本$X_1,\cdots,X_n$。则
		\begin{enumerate}
			\item 第$k$个次序统计量$X_{(k)}$的概率密度函数为
			\begin{equation}
			f_k(x)=\frac{n!}{(k-1)!(n-k)!}(F(x))^{k-1}(1-F(x))^{n-k}f(x)
			\end{equation}
			
			\item 最小和最大次序统计量的分布为
			\begin{equation}
			F_1(x)=1-(1-F(x))^n,\quad F_n(x)=(F(x))^n
			\end{equation}
			
			\item 最小与最大次序统计量$X_{(1)},X_{(n)}$的联合密度为
			\begin{equation}
			p(x_1,x_n)=n(n-1)f(x_1)(F(x_n)-F(x_1))^{n-2}f(x_n),\quad x_1\leq x_n
			\end{equation}
		\end{enumerate}
	\end{theorem}
	\begin{proof}
		\begin{enumerate}
		\item 我们有
		\begin{equation}\begin{aligned}
		P&\left(X_{(k)}\in (x,x+\Delta x]\right)=\\
		&
		\begin{pmatrix}
		&n&\\k-1&1&n-k
		\end{pmatrix}
		(F(x))^{k-1}(F(x+\Delta x)-F(x))(1-F(x+\Delta x))^{n-k}
		\end{aligned}\end{equation}
		其中
		\begin{equation}
		\begin{pmatrix}
		&n&\\k-1&1&n-k
		\end{pmatrix}
		\end{equation}指的是在古典概率计算一节中的组合数的推广，即多项式系数。上面表示的是有$k-1$个样本落在区间左边，$1$个落在区间里，$n-k$个落在区间右边。
		
		从而
		\begin{equation}\begin{aligned}
		f_k(x)&=\lim\limits_{\Delta x\to 0}\frac{P\left(X_{(k)}\in (x,x+\Delta x]\right)}{\Delta x}\\
		&=\frac{n!}{(k-1)!(n-k)!}(F(x))^{k-1}(1-F(x))^{n-k}f(x)
		\end{aligned}\end{equation}
		
		\item 最小次序统计量的概率密度为
		\begin{equation}
		f_1(x)=n(1-F(x))^{n-1}f(x)
		\end{equation}
		从而分布为(采用换元法积分)
		\begin{equation}
		F_1(x)=\int_{-\infty}^{x}f_1(t)dt=1-(1-F(x))^n
		\end{equation}
		最大次序统计量的概率密度为
		\begin{equation}
		f_n(x)=n(F(x))^{n-1}f(x)
		\end{equation}
		从而分布为
		\begin{equation}
		F_n(x)=\int_{-\infty}^{x}f_n(t)dt=(F(x))^n
		\end{equation}
		
		\item 我们有
		\begin{equation}
		p(x_1,x_n)=\lim\limits_{\Delta x_1,\Delta x_n\to 0}\frac{P\left(x_1<X_{(1)}\leq x_1+\Delta x_1, x_n<X_{(n)}\leq x_n+\Delta x_n\right)}{\Delta x_1\Delta x_n}
		\end{equation}
		如上事件表明，有一个$X_i$落在$(x_1,x_1+\Delta x_1]$内，$n-2$个样本落在$(x_1+\Delta x_1,x_n]$内，有一个$X_j$落在$(x_n,x_n+\Delta x_n]$。从而
		\begin{equation}\begin{aligned}
		p(x_1,x_n)=&\lim\limits_{\Delta x_1,\Delta x_n\to 0}A_{n}^{2}\frac{F(x_1+\Delta x_1)-F(x_1)}{\Delta x_1}\cdot\\
		&\cdot\frac{F(x_n+\Delta x_n)-F(x_n)}{\Delta x_n}(F(x_n)-F(x_1+\Delta x_1))^{n-2}\\
		&=n(n-1)f(x_1)f(x_n)(F(x_n)-F(x_1))^{n-2}
		\end{aligned}\end{equation}
		\end{enumerate}\qed
	\end{proof}
	
	\begin{definition}[极差]
		设$X_1,\cdots,X_n$是取自总体$X$的样本，$X_{(1)},\cdots,X_{(n)}$为该样本的次序统计量，我们称
		\begin{equation}
		R=X_{(n)}-X_{(1)}
		\end{equation}
		为样本极差
	\end{definition}

	\begin{definition}[中位数]
		设$X_1,\cdots,X_n$是取自总体$X$的样本，$X_{(1)},\cdots,X_{(n)}$为该样本的次序统计量，我们称
		\begin{equation}
		m_d=\begin{cases}
		X_{\left(\frac{n+1}{2}\right)},\quad &n\text{是奇数}\\
		\frac{1}{2}\left(X_{\left(\frac{n}{2}\right)}+X_{\left(\frac{n}{2}+1\right)}\right),\quad &n\text{是偶数}
		\end{cases}
		\end{equation}
		为样本中位数
	\end{definition}
	
	\begin{definition}[$p$分位数]
		设$X_1,\cdots,X_n$是取自总体$X$的样本，$X_{(1)},\cdots,X_{(n)}$为该样本的次序统计量，我们称
		\begin{equation}\begin{aligned}
		m_p=\begin{cases}
		X_{(k)},\quad &\frac{k}{n+1}=p\\
		X_{(k)}+\left(X_{(k+1)}-X_{(k)}\right)((n+1)p-k),\quad &\frac{k}{n+1}<p<\frac{k+1}{n+1}
		\end{cases}\\
		\quad k=\max\{\mathbb{N},k\leq(n+1)p\}
		\end{aligned}\end{equation}
		为样本的$p$分位数。
	\end{definition}
	样本的$p$分位数实际上指的就是处于前$p\times 100\%$个的统计量的界限。如果取到的不是整数，那就取相邻两个的加权平均作为界限。
	
	\begin{definition}[第一四分位数和第三四分位数]
		我们称
		\begin{equation}
		Q_1=m_{0.25},\quad Q_3=m_{0.75}
		\end{equation}
		分别为第一四分位数和第三四分位数。
	\end{definition}
	第一四分位数和第三四分位数常用于画箱型图，见MATLAB中的\texttt{boxplot()}函数。
	
	\section{参数点估计}
	\begin{definition}[点估计问题]
		设统计总体的概率密度为$f(x,\theta_1,\cdots,\theta_k)$，称其为总体分布，包含$k$个未知参数$\theta_1,\cdots,\theta_k$。现从总体中抽出样本$X_1,\cdots,X_n$独立同分布，要求以此来估计未知参数$\theta_1,\cdots,\theta_k$。称该问题为参数点估计问题。
	\end{definition}

	点估计的目标就是构造一个$X_1,\cdots,X_n$的函数$\hat{\theta}$，然后代入观测值$x_1,\cdots,x_n$，从而计算出$\hat{\theta}(X_1,\cdots,X_n)$作为参数的估计值。
	
	\begin{definition}[矩法估计]
		设$X_1,\cdots,X_n$是来自总体$X$的一个样本，样本的$k$阶原点矩为$a_k$，如果总体$X$的$k$阶原点矩$\mu_k=E(X^k)$存在，则我们称$k$阶原点矩的估计为
		\begin{equation}
		\hat{\mu}_k=a_k=\frac{1}{n}\sum_{i=1}^n X_i^k
		\end{equation}
	\end{definition}
	
	比如说要估计总体$X$的方差$VarX=\sigma^2$，只需要利用$VarX=EX^2-E^2X$，就有
	\begin{equation}
	\hat{\sigma}^2=a_2-a_1^2=\frac{1}{n}\sum_{i=1}^nX_i^2-\left(\frac{1}{n}\sum_{i=1}^n X_i\right)^2=\frac{1}{n}\sum_{i=1}^n (X_i-\bar{X})^2=m_2
	\end{equation}
	这就用二阶样本中心矩来估计总体方差。
	
	如果要用矩法估计未知参数，则用下面的方法：考虑$X$的分布中有$k$个未知参数$\theta_1,\cdots,\theta_k$，分布的前$k$阶矩存在，它们都是$\theta_1,\cdots,\theta_k$的函数，此时
	\begin{enumerate}
		\item 求出$\mu_j=E(X^j)$，且假设
		\begin{equation}
		\mu_j=g_j(\theta_1,\cdots,\theta_k),\quad j=1,\cdots,k
		\end{equation}
		\item 反解出
		\begin{equation}
		\theta_i=h_i(\mu_1,\cdots,\mu_k),\quad i=1,\cdots,k
		\end{equation}
		\item 从而矩法估计为
		\begin{equation}
		\hat{\theta}_i=h_i(a_1,\cdots,a_k),\quad i=1,\cdots,k
		\end{equation}
		\item 代入观察值，得到参数矩法估计值。
	\end{enumerate}

	点估计的计算方法简单，但可能不具有唯一值(比如泊松分布，只有一个参数，却可以对应均值和方差)，也不够稳健。
	
	点估计问题的核心在于构造估计函数，比如说矩法估计就用了各阶矩与参数之间的对应关系。还有许多不同的估计方法，比如用中位数。评价这些方法的优劣主要看：无偏性、有效性、均方误差准则、相和性这么几个方面。
	
	\begin{definition}[无偏估计]
		设$\hat{\theta}=\hat{\theta}(X_1,\cdots,X_n)$是参数$\theta$的估计量，如果
		\begin{equation}
		E\hat{\theta}=\theta,\quad \theta\in\Theta
		\end{equation}
		则称$\hat{\theta}$是$\theta$的无偏估计，否则称为有偏估计。这里$\Theta$是$\theta$的参数空间。
	\end{definition}
	
	\begin{theorem}[原点矩是矩的无偏估计]
		设总体$X$具有$k$阶矩，$EX^k=\mu_k$，则样本的$k$阶原点矩$a_k$是$\mu_k$的无偏估计。
	\end{theorem}
	\begin{proof}
		从总体$X$中获得样本$X_1,\cdots,X_n$，则由$X_1,\cdots,X_n$独立同分布可知$EX_i^k=\mu_k,\ i=1,\cdots,n$，因此
		\begin{equation}
		E(a_k)=E\left(\frac{1}{n}\sum_{i=1}^n X_i^k\right)=\frac{1}{n}\sum_{i=1}^n E(X_i^k)=\frac{1}{n}\sum_{i=1}^n\mu_k=\mu_k
		\end{equation}\qed
	\end{proof}
	
	\begin{corollary}
		设总体$X$具有期望$EX=\mu$，则样本均值$\bar{X}$是期望$\mu$的无偏估计。
	\end{corollary}
	\begin{proof}
		样本均值是样本的$1$阶原点矩，而$\mu$是总体的$1$阶矩。\qed
	\end{proof}
	
	\begin{theorem}[样本方差是方差的无偏估计]
		设总体具有二阶矩，$E(X)=\mu$，$VarX=\sigma^2$，从中获得样本$X_1,\cdots,X_n$，则样本方差
		\begin{equation}
		S^2=\frac{1}{n-1}\sum_{i=1}^n (X_i-\bar{X})^2
		\end{equation}
		是$\sigma^2$的无偏估计；而二阶样本中心矩$m_2$(分母为$n$的版本)不是$\sigma^2$的无偏估计。
	\end{theorem}
	\begin{proof}
		先计算二阶样本中心矩的期望
		\begin{equation}
		Em_2=E\left(\frac{1}{n}\sum_{i=1}^n X_i^2-\bar{X}^2\right)=\frac{1}{n}\sum_{i=1}^n EX_i^2-E\bar{X}^2
		\end{equation}
		其中
		\begin{equation}\begin{aligned}
		EX_i^2&=VarX_i+E^2X_i=\sigma^2+\mu^2,\quad i=1,\cdots,n\\
		E\bar{X}^2&=Var\bar{X}+E^2\bar{X}=\frac{\sigma^2}{n}+\mu^2
		\end{aligned}\end{equation}
		故
		\begin{equation}
		Em_2=\sigma^2+\mu^2-\frac{\sigma^2}{n}-\mu^2=\frac{n-1}{n}\sigma^2\neq VarX
		\end{equation}
		这说明了二阶样本中心矩$m_2$不是$\sigma^2$的无偏估计。而样本方差
		\begin{equation}
		ES^2=E\left(\frac{1}{n-1}\sum_{i=1}^n (X_i-\bar{X})^2\right)=\frac{n}{n-1}Em_2=\sigma^2=VarX
		\end{equation}
		是总体方差$VarX$的无偏估计。\qed
	\end{proof}

	在不少场合，尤其是小样本场合，常用样本方差$S^2$来估计$VarX$，所以$S^2$又称为无偏方差。二阶样本中心矩不是无偏估计的原因是其用$\bar{X}$代替了$\mu$，减少了一个自由度。但是，在大样本场合，$n\to\infty$，二阶样本中心矩和样本方差相差无几。
	
	但是，需要注意，当$\hat{\theta}$是$\theta$的无偏估计时，$g(\hat{\theta})$却并不一定是$g(\theta)$的无偏估计。比如说，样本标准差$S=\sqrt{S^2}$就不是$\sqrt{VarX}=\sigma$的无偏估计。
	
	\begin{definition}[估计的有效性]
		设$\hat{\theta}_1=\hat{\theta}_1(X_1,\cdots,X_n)$与$\hat{\theta}_2=\hat{\theta}_2(X_1,\cdots,X_n)$都是参数$\theta$的无偏估计。如果
		\begin{equation}
		Var\hat{\theta}_1\leq Var\hat{\theta}_2,\quad \theta\in\Theta
		\end{equation}
		且至少对某一个参数$\theta_0\in\Theta$，不等号严格成立，那么就称$\hat{\theta}_1$比$\hat{\theta}_2$有效。
	\end{definition}

	比如说，样本均值$\hat{\mu}_1=\bar{X}$以及第一个样本本身$\hat{\mu}_2=X_1$都是对总体期望$EX$的无偏估计。但是
	\begin{equation}
	Var\hat{\mu}_1=\frac{1}{n}Var\hat{\mu}_2
	\end{equation}
	所以样本均值比只取一个样本要有效。这就是我们需要多次测量求平均值的原因。
	
	\begin{definition}[均方误差准则]
		设$\hat{\theta}_1$和$\hat{\theta}_2$是参数$\theta$的两个估计量，如果
		\begin{equation}
		E(\hat{\theta}_1-\theta)^2\leq E(\hat{\theta}_2-\theta)^2,\quad \theta\in\Theta
		\end{equation}
		且至少对某一个参数$\theta_0\in\Theta$，不等号严格成立，那么就称在均方误差意义下，$\hat{\theta}_1$优于$\hat{\theta}_2$。其中$E(\hat{\theta}-\theta)^2$称为$\hat{\theta}$的均方误差，记为$MSE(\hat{\theta})$。
	\end{definition}

	对于有偏估计，计算其方差意义就不大了。均方误差就可以用于比较有偏估计。有时，有偏估计在均方误差意义下，还能优于无偏估计。比如下面这个例子。设总体服从正态分布$X\sim N(\mu,\sigma^2)$，从中获得独立同分布样本$X_1,\cdots,X_n$，试在均方误差意义下比较下面两个估计的优劣：
	\begin{equation}\begin{aligned}
	\hat{\sigma}_1^2&=\frac{1}{n-1}\sum_{i=1}^n (X_i-\bar{X})^2=S^2\\
	\hat{\sigma}_2^2&=\frac{1}{n+1}\sum_{i=1}^n (X_i-\bar{X})^2
	\end{aligned}\end{equation}
	对于无偏估计而言，均方误差就是方差。于是
	\begin{equation}
	\frac{n-1}{\sigma^2}\hat{\sigma}_1^2=\frac{1}{\sigma^2}\sum_{i=1}^n (X_i-\bar{X})^2\sim \chi^2(n-1)
	\end{equation}
	服从自由度为$n-1$的卡方分布的原因是，先定的、作为中间步骤的$\bar{X}$已经用掉了一个自由度。卡方分布的方差是(见卡方分布一节)
	\begin{equation}
	Var\frac{n-1}{\sigma^2}\hat{\sigma}_1^2=2(n-1)
	\end{equation}
	也就是
	\begin{equation}
	Var\hat{\sigma}_1^2=\frac{2\sigma^4}{n-1}
	\end{equation}
	而$\hat{\sigma}_2^2$是有偏估计，其均方误差
	\begin{equation}\begin{aligned}
	E^2(\hat{\sigma}_2^2-\sigma^2)&=E^2\left(\frac{1}{n+1}\sum_{i=1}^n(X_i-\bar{X})^2-\sigma^2\right)\\
	&=E^2\left(\frac{n-1}{n+1}(S^2-\sigma^2)-\frac{2}{n+1}\sigma^2\right)\\
	&=\left(\frac{n-1}{n+1}\right)^2 VarS^2+\left(\frac{2\sigma^2}{n+1}\right)^2=\frac{2\sigma^4}{n+1}
	\end{aligned}\end{equation}
	从而
	\begin{equation}
	MSE(\hat{\sigma}_1^2)>MSE(\hat{\sigma}_2^2)
	\end{equation}
	这个例子说明，从无偏性角度来看，$\hat{\sigma}_1^2$较好，但从均方误差角度来看，$\hat{\sigma}_2^2$则较好。
	
	\begin{definition}[相合估计]
		设对于$\forall n\in\mathbb{N}$，$\hat{\theta}_n=\hat{\theta}_n(X_1,\cdots,X_n)$是$\theta$的一个估计量。如果对于$\forall\epsilon>0$，有
		\begin{equation}
		\lim\limits_{n\to\infty}P(|\hat{\theta}_n-\theta|\geq\epsilon)=0
		\end{equation}
		则称$\hat{\theta}_n$是$\theta$的一个相合估计。
	\end{definition}

	\begin{theorem}[样本矩是相合估计]
		对于总体$X$中的样本$X_1,\cdots,X_n$，若总体的$k$阶矩$\mu_k$存在，则样本$k$阶矩$a_k$是总体$k$阶矩的相合估计。
	\end{theorem}
	\begin{proof}
		根据Khinchine弱大数定律，当$EX=\mu$存在时，有对于$\forall\epsilon>0$，
		\begin{equation}
		\lim\limits_{n\to\infty}P\left(\left|\frac{1}{n}\sum_{i=1}^n X_i -\mu\right|\geq\epsilon\right)=0
		\end{equation}
		而对于独立同分布随机变量$X_i^k$而言，同样满足Khinchine弱大数定律，从而
		\begin{equation}
		\lim\limits_{n\to\infty}P\left(\left|\frac{1}{n}\sum_{i=1}^n X_i^k -\mu\right|\geq\epsilon\right)=0
		\end{equation}
		\qed
	\end{proof}
	
	与无偏估计不同，相合估计可以推到某个估计的函数上面。
	\begin{theorem}
		当$\hat{\theta}_1,\cdots,\hat{\theta}_k$分别是$\theta_1,\cdots,\theta_k$的相合估计时，如果$g(\theta_1,\cdots,\theta_k)$是连续函数，则$g(\hat{\theta}_1,\cdots,\hat{\theta}_k)$是$g(\theta_1,\cdots,\theta_k)$的相合估计。
	\end{theorem}
	
	有了这个定理，就知道样本二阶中心矩
	\begin{equation}
	m_2=a_2-a_1^2,\quad \sigma^2=\mu_2-\mu_1^2
	\end{equation}
	是总体方差的相合估计。
	
	\section{极大似然估计}
	设总体含有待估参数$\theta$，其有很多取值，我们要在$\theta$的一切可能取值中选出一个使得样本观测值出现的概率为最大的$\theta$值作为估计，记为$\hat{\theta}$，且称为$\theta$的极大似然估计。
	
	\begin{definition}[极大似然估计，离散情形]
		设$X$是离散型随机变量，分布中含有未知参数$\theta$，记为
		\begin{equation}
		P(X=c_i)=p(c_i;\theta),\quad i=1,\cdots \quad\theta\in\Theta
		\end{equation}
		现从总体中抽取容量为$n$的样本，观测值为$x_1,\cdots,x_n$，这里的每个$x_i$都是$c_1,\cdots$中的某个值。该样本的联合分布是
		\begin{equation}
		L(\theta)=\prod_{i=1}^n p(x_i;\theta)
		\end{equation}
		称$L(\theta)$为似然函数。对不同的$\theta$，同一组样本观察值$x_1,\cdots,x_n$出现的概率$L(\theta)$也不一样。对于该组样本观察值，我们选取这样的$\hat{\theta}$作为$\theta$的估计，使得
		\begin{equation}
		L(\hat{\theta})=\max_{\theta\in\Theta}L(\theta)
		\end{equation}
		如果这样的$\hat{\theta}$存在，则称其为$\theta$的极大似然估计，记为$MLE$。
	\end{definition}
	\begin{definition}[极大似然估计，连续情形]
		设$X$是连续型随机变量，分布中含有未知参数$\theta$，现在从总体中抽取容量为$n$的样本，观测值为$x_1,\cdots,x_n$，则在$X_1=x_1,\cdots,X_n=x_n$时联合密度的值
		\begin{equation}
		L(\theta)=\prod_{i=1}^n f(x_i;\theta)
		\end{equation}
		称$L(\theta)$为似然函数。对不同的$\theta$，同一组样本观察值$x_1,\cdots,x_n$对应的密度$L(\theta)$也不一样。对于该组样本观察值，我们选取这样的$\hat{\theta}$作为$\theta$的估计，使得
		\begin{equation}
		L(\hat{\theta})=\max_{\theta\in\Theta}L(\theta)
		\end{equation}
		如果这样的$\hat{\theta}$存在，则称其为$\theta$的极大似然估计，记为$MLE$。
	\end{definition}

	求极大似然估计的方法是：求出在参数$\theta$下出现观测值的概率或者概率密度，找到最大的概率对应的$\theta$值，就是极大似然估计。
	
	极大似然估计不一定是无偏的。例如，已知总体服从正态分布$X\sim N(\mu,\sigma^2)$，参数未知。为了估计$\mu,\sigma^2$，简单随机抽样得到$n$样本观察值$x_1,\cdots,x_n$。那么，对于正态分布而言，样本$X_i$出现观察值为$x_i$的概率密度为
	\begin{equation}
	f(x_i)=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x_i-\mu)^2}{2\sigma^2}}
	\end{equation}
	从而似然函数就是联合密度
	\begin{equation}
	L(\mu,\sigma^2)=\prod_{i=1}^n \frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x_i-\mu)^2}{2\sigma^2}}
	\end{equation}
	由于$x_i$是已知量，$L(\mu,\sigma^2)$就是关于$\mu,\sigma^2$的函数。为了求其极大值，我们先取对数，再令各偏导数等于零：
	\begin{equation}\begin{aligned}
	\frac{\partial\ln L}{\partial\mu}&=\frac{\partial}{\partial\mu}\left(-\frac{n}{2}\ln(2\pi\sigma^2)-\sum_{i=1}^n \frac{(x_i-\mu)^2}{2\sigma^2}\right)=-\sum_{i=1}^n \frac{x_i-\mu}{\sigma^2}=0\\
	\frac{\partial\ln L}{\partial\sigma^2}&=\frac{\partial}{\partial\sigma^2}\left(-\frac{n}{2}\ln(2\pi\sigma^2)-\sum_{i=1}^n \frac{(x_i-\mu)^2}{2\sigma^2}\right)=-\frac{n}{2\sigma^2}+\sum_{i=1}^n \frac{(x_i-\mu)^2}{2\sigma^4}=0
	\end{aligned}\end{equation}
	从而
	\begin{equation}\begin{aligned}
	\hat{\mu}&=\frac{1}{n}\sum_{i=1}^n x_i=\bar{x}\\
	\hat{\sigma}^2&=\frac{1}{n}\sum_{i=1}^n (x_i-\hat{\mu})^2=m_2
	\end{aligned}\end{equation}
	现在要验证这确实是极大值点，方法是计算该点处的Hessian矩阵，并判断其正定性。经过验证，这确实是极大值点。因此，$\mu$的极大似然估计是样本均值$\bar{x}$，$\sigma^2$的极大似然估计是样本二阶中心矩$m_2$。可以看到，极大似然估计并不一定是无偏估计。
	
	\begin{theorem}[极大似然估计的不变原则]
		设$\hat{\theta}$是$\theta$的极大似然估计，$g(\theta)$是$\theta$的连续函数，则$g(\theta)$的极大似然估计是$g(\hat{\theta})$。
	\end{theorem}
	
	\begin{theorem}[极大似然估计的渐近正态性]
		设总体$X$具有密度$f(x;\theta)$，未知参数$\theta\in\Theta$，$\Theta$是非退化区间。假定
		\begin{enumerate}
		\item 对于$\forall\theta\in\Theta$，偏导数
		\begin{equation}
		\frac{\partial \ln f}{\partial\theta},\quad \frac{\partial^2 \ln f}{\partial\theta^2},\quad \frac{\partial^3 \ln f}{\partial\theta^3}
		\end{equation}
		均存在
		
		\item 对于$\forall\theta\in\Theta$，
		\begin{equation}
		\left|\frac{\partial \ln f}{\partial\theta}\right|<F_1(x),\quad \left|\frac{\partial^2 \ln f}{\partial\theta^2}\right|<F_2(x),\quad \left|\frac{\partial^3 \ln f}{\partial\theta^3}\right|<F_3(x)
		\end{equation}
		其中$F_1(x),\ F_2(x)$在$\mathbb{R}$上可积，而函数$F_3$满足存在与$\theta$无关的常数$M$使得
		\begin{equation}
		\int_{\mathbb{R}}F_3(x)f(x;\theta)dx<M
		\end{equation}
		
		\item 对于$\forall\theta\in\Theta$，有
		\begin{equation}
		0<E^2\left(\frac{\partial\ln f}{\partial\theta}\right)=\int_{\mathbb{R}}\left(\frac{\partial\ln f}{\partial\theta}\right)^2 f(x;\theta)dx <\infty
		\end{equation}
		\end{enumerate}
	
		则在分布参数$\theta$的真值$\theta_0$为$\Theta$的一个内点的情形下，其似然方程
		\begin{equation}
		\frac{\partial}{\partial\theta}\ln L(\theta)=0
		\end{equation}
		存在一个解$\hat{\theta}$，并且对于$\forall\epsilon>0$，有
		\begin{equation}
		\lim\limits_{n\to\infty}P\left(|\hat{\theta}-\theta_0|>\epsilon\right)=0
		\end{equation}
		其中$n$是样本容量。并且，$\hat{\theta}$渐进收敛至正态分布
		\begin{equation}
		\lim\limits_{n\to\infty}\hat{\theta}\sim N\left(\theta_0,\frac{1}{n}E^{-2}\left.\frac{\partial\ln f}{\partial\theta}\right|_{\theta=\theta_0}\right)
		\end{equation}
	\end{theorem}
	
	例如，设$X_1,\cdots,X_n$是来自$X\sim N(\mu,\sigma^2)$的样本。可以验证，对于密度
	\begin{equation}
	f(x;\mu,\sigma^2)=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}
	\end{equation}
	在$\sigma^2$或者$\mu$已知时，满足以上定理的三个条件。从而
	\begin{enumerate}
		\item 在$\sigma^2$已知时，$\mu$的极大似然估计是$\hat{\mu}=\bar{X}$，其渐进收敛至正态分布
		\begin{equation}
		\hat{\mu}\stackrel{d}{\to} N\left(\mu, \frac{\sigma^2}{n}\right)
		\end{equation}
		
		\item 在$\mu$已知时，$\sigma^2$的极大似然估计是$\hat{\sigma^2}=m_2$，其渐进收敛至正态分布
		\begin{equation}
		\hat{\sigma^2}\stackrel{d}{\to} N\left(\sigma^2,\frac{2\sigma^4}{n}\right)
		\end{equation}
	\end{enumerate}
	
	以上定理对单参数离散场合也成立，只需要把密度改成分布列，把积分改成求和即可。极大似然分布的渐近正态性，为在大样本条件下讨论参数的区间估计及假设检验提供了依据。
	
	\section{区间估计}
	\begin{definition}[置信区间]
		设$\theta$是总体$X$的一个参数，其参数空间为$\Theta$，$X_1,\cdots,X_n$是来自该总体的一个样本，对给定的$\alpha\in(0,1)$，确定两个统计量$\theta_L=\theta_L(X_1,\cdots,X_n)$和$\theta_U=\theta_U(X_1,\cdots,X_n)$。如果对于$\forall\theta\in\Theta$，有
		\begin{equation}
		P(\theta_L\leq \theta\leq \theta_U)\geq 1-\alpha
		\end{equation}
		则称随机区间$[\theta_L,\theta_U]$是$\theta$的置信水平为$1-\alpha$的置信区间，$\theta_L$称为置信下限，$\theta_U$称为置信上限。
	\end{definition}

	构造未知参数$\theta$的置信区间的常用方法是枢轴量法：
	\begin{enumerate}
		\item 先得到点估计作为样本$X_1,\cdots,X_n$的函数$\hat{\theta}$，构造函数$G(\hat{\theta},\theta)$，使得$G$的分布是已知的(或者在大样本场合是已知的，比如许多情况下的参数极大似然估计在大样本下都渐进服从正态分布)，而且与$\theta$无关。通常称$G(\hat{\theta},\theta)$为枢轴量
		\item 选取常数$c,d$使得对于给定的$\alpha$有
		\begin{equation}
		P(c\leq G(\hat{\theta},\theta)\leq d)\geq 1-\alpha
		\end{equation}
		(如果是连续分布，就让等号成立即可)
		\item 解不等式，得到$\theta_L\leq\theta\leq\theta_U$，是为置信区间。
	\end{enumerate}
	在构造枢轴量时，尽量选取不含未知参数的分布，比如标准正态分布或卡方分布。在确定$c,d$时，常用指标是
	\begin{equation}
	P(G<c)=\frac{\alpha}{2},\quad P(G>d)=\frac{\alpha}{2}
	\end{equation}
	这样得到的置信区间称为等尾置信区间，因为真实参数游离于置信区间之外两边的可能性是相等的。
	
	枢轴量的选取是区间估计的中心步骤，选好枢轴量之后接下来就只要查表、解不等式就行了。接下来是在某些情况下，选取枢轴量的方法。
	
	\paragraph{$\sigma$已知，求$\mu$的区间} 对于总体服从正态分布$X\sim N(\mu,\sigma^2)$的情形，$\sigma$已知，给定$n$个样本的观察值，求$\mu$的置信区间。这时，我们知道样本均值(见定理“样本均值分布”)
	\begin{equation}
	\bar{X}\sim N(\mu,\frac{\sigma^2}{n})
	\end{equation}
	于是我们构造一个枢轴量
	\begin{equation}
	G(\hat{\mu},\mu)=\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}
	\end{equation}
	其分布已知，就是标准正态分布。于是取$c=-1,\ d=1$，这包含了95.45\%的面积。解不等式可得95\%置信区间为
	\begin{equation}
	\left[\mu-\frac{\sigma}{n},\mu+\frac{\sigma}{n}\right]
	\end{equation}
	
	如果总体不服从正态分布，但是样本量较大，那么求期望的置信区间依然可以用正态分布作为枢轴量，这是Lindeberg-L\'{e}vy中心极限定理保证的(见定理“样本均值分布”)。
	
	此外，在方差已知的情况下，样本量越大，置信区间的长度越短，估计的精度也越高。
	
	\paragraph{$\sigma$未知，求$\mu$的区间}如果总体正态分布的$\sigma$也不知道，要估计$\mu$的置信区间，就需要用样本标准差$S$来代替总体标准差$\sigma$。这时，枢轴量
	\begin{equation}
	G(\hat{\mu},\mu)=\frac{\bar{X}-\mu}{S/\sqrt{n}}
	\end{equation}
	不再服从正态分布，而是服从和它比较相似的$t$分布。
	\begin{definition}[$t$分布]
		设随机变量$X\sim N(0,1)$，$Y\sim\chi^2(n)$，且$X$与$Y$相互独立，则
		\begin{equation}
		t=\frac{X}{\sqrt{Y/n}}
		\end{equation}
		的分布称为自由度为$n$的$t$分布，记为$t\sim t(n)$。
	\end{definition}

	\begin{theorem}[$t$分布的密度]
		如果随机变量$t\sim t(n)$，则其具有概率密度
		\begin{equation}
		f_t(t)=\frac{\Gamma\left(\frac{n+1}{2}\right)}{\sqrt{n\pi}\Gamma\left(\frac{n}{2}\right)}\left(1+\frac{t^2}{n}\right)^{-\frac{n+1}{2}}
		\end{equation}
	\end{theorem}
	\begin{proof}
		定理(\ref{随机变量商的密度})给出了随机变量的商的概率密度，所以直接得到$t$的密度为
		\begin{equation}
		f_t(t)=\int_{-\infty}^{+\infty}|z|f_X(zt)f_Z(z)dz=\int_{0}^{+\infty}zf_X(zt)f_Z(z)dz,\quad z>0
		\end{equation}
		其中
		$f_X(x)$是标准正态分布密度，而$f_Z(z)$是随机变量$Z=\sqrt{Y/n}$的密度，这里$Y\sim\chi^2(n)$。于是
		\begin{equation}
		f_Z(z)=f_Y(y=nz^2)\left.\frac{dy}{dz}\right|_{y=nz^2}=\frac{1}{2^{\frac{n}{2}-1}\Gamma\left(\frac{n}{2}\right)}n^{\frac{n}{2}}z^{n-1}
		\end{equation}
		从而
		\begin{equation}
		f_t(t)=\int_{0}^{+\infty}\frac{2\left(\frac{n}{2}\right)^{\frac{n}{2}}}{\sqrt{2\pi}\Gamma\left(\frac{n}{2}\right)}z^{n}e^{-\frac{z^2}{2}(t^2+n)}dz
		\end{equation}
		换元$x=z^2(t^2+n)/2$可得
		\begin{equation}
		f_t(t)=\int_{0}^{+\infty}\frac{n^{\frac{n}{2}}x^{\frac{n-1}{2}}e^{-x}}{(t^2+n)^{\frac{n+1}{2}}\sqrt{\pi}\Gamma\left(\frac{n}{2}\right)}dx=\frac{\Gamma\left(\frac{n+1}{2}\right)}{\sqrt{n\pi}\Gamma\left(\frac{n}{2}\right)}\left(1+\frac{t^2}{n}\right)^{-\frac{n+1}{2}}
		\end{equation}\qed
	\end{proof}
	
	\begin{theorem}
		设$X_1,\cdots,X_n$是来自$X\sim N(\mu,\sigma^2)$的一个样本，$\bar{X}$是样本均值，$S^2$是样本方差，则
		\begin{equation}
		t=\frac{\bar{X}-\mu}{S/\sqrt{n}}
		\end{equation}
		服从自由度为$n-1$的$t$分布。
	\end{theorem}
	\begin{proof}
		在$t$分布的定义中，取
		\begin{equation}
		X=\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1),\quad Y=\frac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1)
		\end{equation}
		即可。\qed
	\end{proof}

	这样，就可以在不知道正态总体方差$\sigma^2$的情形下，利用样本方差代替$\sigma^2$，用$t$分布代替标准正态分布，来构造枢轴量$G(\hat{\mu},\mu)$，并进而求置信区间了。在大样本$n>30$的情况下，$t$分布趋于正态分布，因此可以用正态分布代替$t$分布。
	
	\paragraph{$\mu$未知，求$\sigma$的区间}在未知总体正态分布$\mu$和$\sigma^2$的情况下，要对参数$\sigma^2$进行区间估计，那么就从样本方差$S^2$出发，枢轴量
	\begin{equation}
	G(\hat{\sigma}^2,\sigma^2)=\frac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1)
	\end{equation}
	其分布已知，这样就只要取好$c$和$d$，然后解不等式就可以了。
	
	\paragraph{两个正态均值差的区间}
	设有两个正态总体，其分布分别为$N(\mu_1,\sigma^2)$和$N(\mu_2,\sigma^2)$，具有相同方差，但参数均未知。现从这两个总体分别抽出样本$X_1,\cdots,X_n$，$Y_1,\cdots,Y_m$，要对$\mu_1-\mu_2$进行区间估计。这个问题又叫做Behrens-Fisher问题。那么，记$\bar{X}$和$\bar{Y}$为样本方差；
	由于$\bar{X}-\bar{Y}$服从正态分布(用特征函数法)，从而
	\begin{equation}
	\bar{X}-\bar{Y}\sim N(\mu_1-\mu_2,\frac{\sigma^2}{n}+\frac{\sigma^2}{m})
	\end{equation}
	即
	\begin{equation}
	\sqrt{\frac{n+m}{nm}}\cdot\frac{(\bar{X}-\bar{Y})-(\mu_1-\mu_2)}{\sigma}\sim N(0,1)
	\end{equation}
	
	接下来构造$t$分布的分母。我们知道样本方差$S_X^2$和$S_Y^2$都是$\sigma$的无偏估计，那么其加权平均
	\begin{equation}
	S^2=\frac{(n-1)S_X^2+(m-1)S_Y^2}{n+m-2}
	\end{equation}
	同样是$\sigma$的无偏估计。验算如下：
	\begin{equation}
	ES^2=\frac{1}{n+m-2}\left(E\sum_{i=1}^{n}(X_i-\bar{X})^2+E\sum_{j=1}^{m}(Y_j-\bar{Y})^2\right)
	\end{equation}
	其中
	\begin{equation}
	\begin{aligned}
	E\sum_{i=1}^n(X_i-\bar{X})^2&=E\sum_{i=1}^n (X_i^2-\bar{X}^2)\\
	&=\sum_{i=1}^n(VarX_i+E^2X_i-Var\bar{X}-E^2\bar{X})\\
	&=(n-1)\sigma^2
	\end{aligned}
	\end{equation}
	于是
	\begin{equation}
	ES^2=\frac{(n-1)\sigma^2+(m-1)\sigma^2}{n+m-2}=\sigma^2
	\end{equation}
	这就证明了$S^2$是$\sigma^2$的无偏估计。另一方面，
	\begin{equation}
	\frac{(n-1)S_X^2}{\sigma^2}\sim\chi^2(n-1),\quad \frac{(m-1)S_Y^2}{\sigma^2}\sim\chi^2(m-1)
	\end{equation}
	因此
	\begin{equation}
	\frac{(n+m-2)S^2}{\sigma^2}=\frac{(n-1)S^2}{\sigma^2}+\frac{(m-1)S^2}{\sigma^2}\sim\chi^2(n+m-2)
	\end{equation}
	于是$t$分布的分子分母都有了，也就是
	\begin{equation}
	\frac{(\bar{X}-\bar{Y})-(\mu_1-\mu_2)}{\sqrt{S^2\left(\frac{1}{n}+\frac{1}{m}\right)}}\sim t(n+m-2)
	\end{equation}
	至此，我们成功构造出了枢轴量，其服从已知的$t$分布，取好$c,d$，解不等式就可以进行$\mu_1-\mu_2$的区间估计了。
	
	对于一般场合，$\sigma_X^2\neq\sigma_Y^2$的情形，目前仍未得到完全解决。近似地，我们有枢轴量
	\begin{equation}
	G=\frac{(\bar{X}-\bar{Y})-(\mu_1-\mu_2)}{\sqrt{\frac{S_X^2}{n}+\frac{S_Y^2}{m}}}
	\end{equation}
	它近似服从自由度为
	\begin{equation}
	l=\left.\left(\frac{S_X^2}{n}+\frac{S_Y^2}{m}\right)^2\right/\left(\frac{S_X^2}{n^2(n-1)}+\frac{S_Y^2}{m^2(m-1)}\right)
	\end{equation}
	的$t$分布。如果$l$不是整数，就取离$l$最近的整数作为自由度。
	
	\paragraph{两个正态方差比的区间}
	设有两个正态总体，其分布分别为$X\sim N(\mu_1,\sigma_1^2)$和$Y\sim N(\mu_2,\sigma_2^2)$，从中取出独立样本$X_1,\cdots,X_n,Y_1,\cdots,Y_m$，要求$\sigma_1^2/\sigma_2^2$的置信区间。此时，就用其估计之比作为枢轴量
	\begin{equation}
	G=\frac{S_X^2/\sigma_1^2}{S_Y^2/\sigma_2^2}
	\end{equation}
	
	为此，需要引入$F$分布。
	\begin{definition}[$F$分布]
		如果$X\sim\chi^2(n)$，$Y\sim\chi^2(m)$，且$X$与$Y$独立，则称
		\begin{equation}
		Z=\frac{X/n}{Y/m}
		\end{equation}
		服从自由度是$n$与$m$的$F$分布，记为$Z\sim F(n,m)$
	\end{definition}

	\begin{theorem}[$F$分布的密度]
		设随机变量$Z\sim F(n,m)$，则$T$的概率密度为
		\begin{equation}
		f(z)=\frac{\Gamma\left(\frac{n+m}{2}\right)}{\Gamma\left(\frac{n}{2}\right)\Gamma\left(\frac{m}{2}\right)}n^{\frac{n}{2}}m^{\frac{m}{2}}z^{\frac{n}{2}-1}(nz+m)^{-\frac{n+m}{2}},\quad z\geq 0
		\end{equation}
	\end{theorem}
	\begin{proof}
		定理(\ref{随机变量商的密度})给出了随机变量的商的概率密度，所以直接得到$z$的密度为
		\begin{equation}
		f(z)=\int_{-\infty}^{+\infty}|x|f_X(xz)f_Y(x)dx=\int_{0}^{+\infty}xf_X(xz)f_Y(x)dx
		\end{equation}
		其中$f_X(x)$是$X/n$的密度，$f_Y(x)$是$Y/m$的密度：
		\begin{equation}
		f_X(x)=\frac{n}{2^{\frac{n}{2}}\Gamma\left(\frac{n}{2}\right)}(nx)^{\frac{n}{2}-1}e^{-\frac{nx}{2}},\quad f_Y(x)=\frac{m}{2^{\frac{m}{2}}\Gamma\left(\frac{m}{2}\right)}(mx)^{\frac{m}{2}-1}e^{-\frac{mx}{2}}
		\end{equation}
		故
		\begin{equation}
		f(z)=\int_{0}^{+\infty}\frac{nm}{2^{\frac{n+m}{2}}\Gamma\left(\frac{n}{2}\right)\Gamma\left(\frac{m}{2}\right)}x(nxz)^{\frac{n}{2}-1}(mx)^{\frac{m}{2}-1}e^{-\frac{(nz+m)x}{2}}dx
		\end{equation}
		令$t=\frac{nz+m}{2}x$，有
		\begin{equation}
		f(z)=\frac{n^{\frac{n}{2}}m^{\frac{m}{2}}z^{\frac{n}{2}-1}}{\Gamma\left(\frac{n}{2}\right)\Gamma\left(\frac{m}{2}\right)(nz+m)^{\frac{n+m}{2}}}\int_{0}^{+\infty}t^{\frac{n+m}{2}-1}e^{-t}dt
		\end{equation}
		根据$\Gamma$函数的定义，即得
		\begin{equation}
		f(z)=\frac{\Gamma\left(\frac{n+m}{2}\right)}{\Gamma\left(\frac{n}{2}\right)\Gamma\left(\frac{m}{2}\right)}n^{\frac{n}{2}}m^{\frac{m}{2}}z^{\frac{n}{2}-1}(nz+m)^{-\frac{n+m}{2}},\quad z\geq 0
		\end{equation}\qed
	\end{proof}
	\begin{theorem}[$F$分布的$p$分位数]
		设随机变量$Z$服从自由度为$n,m$的$F$分布$Z\sim F(n,m)$，密度为$f(z)$。我们记其$p$分位数为$F_p(n,m)$，定义如下：
		\begin{equation}
		\int_{0}^{F_p(n,m)} f(z)dz=p
		\end{equation}
		则其$1-p$分位数满足
		\begin{equation}
		F_{1-p}(n,m)=\frac{1}{F_{p}(m,n)}
		\end{equation}
	\end{theorem}
	\begin{proof}
		设$X\sim\chi^2(n)$，$Y\sim\chi^2(m)$相互独立，则
		\begin{equation}
		Z=\frac{X/n}{Y/m}\sim F(n,m),\quad \frac{1}{Z}=\frac{Y/m}{X/n}\sim F(m,n)
		\end{equation}
		根据分位数的定义，有
		\begin{equation}
		P(Z<F_p(n,m))=p
		\end{equation}
		即
		\begin{equation}
		P\left(\frac{1}{Z}>\frac{1}{F_p(n,m)}\right)=p
		\end{equation}
		从而
		\begin{equation}
		P\left(\frac{1}{Z}<\frac{1}{F_p(n,m)}\right)=1-p=P\left(\frac{1}{Z}<F_{1-p}(m,n)\right)
		\end{equation}
		这就是
		\begin{equation}
		\frac{1}{F_p(n,m)}=F_{1-p}(m,n)
		\end{equation}\qed
	\end{proof}
	\begin{theorem}
		设有两个正态总体，其分布分别为$X\sim N(\mu_1,\sigma_1^2)$和$Y\sim N(\mu_2,\sigma_2^2)$，从中取出独立样本$X_1,\cdots,X_n,Y_1,\cdots,Y_m$，两个样本的样本方差分别为$S_X^2,\ S_Y^2$，则
		\begin{equation}
		G=\frac{S_X^2/\sigma_1^2}{S_Y^2/\sigma_2^2}\sim F(n-1,m-1)
		\end{equation}
	\end{theorem}
	\begin{proof}
		在$F$分布的定义中，取
		\begin{equation}
		X_0=\frac{(n-1)S_X^2}{\sigma_1^2}\sim\chi^2(n-1),\quad Y_0=\frac{(m-1)S_Y^2}{\sigma_2^2}\sim\chi^2(m-1)
		\end{equation}
		即可。\qed
	\end{proof}
	由此，我们构造出了服从已知分布的枢轴量$G$，即可解得方差比的置信区间。
	
	\begin{definition}[单侧置信限]
		设$\theta$是总体$X$的某一未知参数，对给定的$\alpha\in(0,1)$，由来自该总体的样本确定的统计量$\theta_L=\theta_L(X_1,\cdots,X_n)$和$\theta_U=\theta_U(X_1,\cdots,X_n)$，满足
		\begin{equation}
		P(\theta\geq\theta_L)\geq 1-\alpha,\quad P(\theta\leq\theta_U)\geq 1-\alpha
		\end{equation}
		则称$\theta_L$是置信水平为$1-\alpha$的单侧置信下限，简称$1-\alpha$置信下限；称$\theta_U$是置信水平为$1-\alpha$的单侧置信上限，简称$1-\alpha$置信上限。
	\end{definition}
	
	显然，这个定义无非就是把区间估计里，两边的不等式改成一边罢了。所以，区间估计里用的枢轴量法全都可以用在求单侧置信限上。
	
%	例子。考虑总体$X\sim P(\lambda)$，从中抽出样本$X_1,\cdots,X_n$，试求其$1-\alpha$的等尾置信区间。泊松分布的分布列为
%	\begin{equation}
%	P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda},\quad k=0,1,\cdots
%	\end{equation}
%	其期望$\mu=\lambda$。于是我们从样本均值$\bar{X}$出发构造枢轴量。$Z=X_1+\cdots+X_n$的概率母函数为
%	\begin{equation}
%	g_Z(s)=e^{n\lambda(s-1)}
%	\end{equation}
%	也就是说$Z\sim P(n\lambda)$，这意味着$n\bar{X}$的分布列为
%	\begin{equation}
%	P(n\bar{X}=k)=\frac{(n\lambda)^k}{k!}e^{-n\lambda}
%	\end{equation}
%	至此，我们构造出了枢轴量。接下来，考虑不等式
%	\begin{equation}
%	\sum_{k=0}^{\lambda_L}\frac{(n\lambda)^k}{k!}e^{-n\lambda}\leq \frac{\alpha}{2}
%	\end{equation}
%	以及不等式
%	\begin{equation}
%	\sum_{k=0}^{\lambda_U}\frac{(n\lambda)^k}{k!}e^{-n\lambda}\geq 1-\frac{\alpha}{2}
%	\end{equation}
%	作为数值解，考虑$\alpha=0.1$的情形。
	
	